本报告探讨了一个包含4898条记录白葡萄酒物理化学特性和质量的数据。
## [1] 4898 13
## X fixed.acidity volatile.acidity citric.acid residual.sugar chlorides
## 1 1 7.0 0.27 0.36 20.7 0.045
## 2 2 6.3 0.30 0.34 1.6 0.049
## 3 3 8.1 0.28 0.40 6.9 0.050
## 4 4 7.2 0.23 0.32 8.5 0.058
## 5 5 7.2 0.23 0.32 8.5 0.058
## 6 6 8.1 0.28 0.40 6.9 0.050
## free.sulfur.dioxide total.sulfur.dioxide density pH sulphates alcohol
## 1 45 170 1.0010 3.00 0.45 8.8
## 2 14 132 0.9940 3.30 0.49 9.5
## 3 30 97 0.9951 3.26 0.44 10.1
## 4 47 186 0.9956 3.19 0.40 9.9
## 5 47 186 0.9956 3.19 0.40 9.9
## 6 30 97 0.9951 3.26 0.44 10.1
## quality
## 1 6
## 2 6
## 3 6
## 4 6
## 5 6
## 6 6
## 'data.frame': 4898 obs. of 13 variables:
## $ X : int 1 2 3 4 5 6 7 8 9 10 ...
## $ fixed.acidity : num 7 6.3 8.1 7.2 7.2 8.1 6.2 7 6.3 8.1 ...
## $ volatile.acidity : num 0.27 0.3 0.28 0.23 0.23 0.28 0.32 0.27 0.3 0.22 ...
## $ citric.acid : num 0.36 0.34 0.4 0.32 0.32 0.4 0.16 0.36 0.34 0.43 ...
## $ residual.sugar : num 20.7 1.6 6.9 8.5 8.5 6.9 7 20.7 1.6 1.5 ...
## $ chlorides : num 0.045 0.049 0.05 0.058 0.058 0.05 0.045 0.045 0.049 0.044 ...
## $ free.sulfur.dioxide : num 45 14 30 47 47 30 30 45 14 28 ...
## $ total.sulfur.dioxide: num 170 132 97 186 186 97 136 170 132 129 ...
## $ density : num 1.001 0.994 0.995 0.996 0.996 ...
## $ pH : num 3 3.3 3.26 3.19 3.19 3.26 3.18 3 3.3 3.22 ...
## $ sulphates : num 0.45 0.49 0.44 0.4 0.4 0.44 0.47 0.45 0.49 0.45 ...
## $ alcohol : num 8.8 9.5 10.1 9.9 9.9 10.1 9.6 8.8 9.5 11 ...
## $ quality : int 6 6 6 6 6 6 6 6 6 6 ...
## X fixed.acidity volatile.acidity citric.acid
## Min. : 1 Min. : 3.800 Min. :0.0800 Min. :0.0000
## 1st Qu.:1225 1st Qu.: 6.300 1st Qu.:0.2100 1st Qu.:0.2700
## Median :2450 Median : 6.800 Median :0.2600 Median :0.3200
## Mean :2450 Mean : 6.855 Mean :0.2782 Mean :0.3342
## 3rd Qu.:3674 3rd Qu.: 7.300 3rd Qu.:0.3200 3rd Qu.:0.3900
## Max. :4898 Max. :14.200 Max. :1.1000 Max. :1.6600
## residual.sugar chlorides free.sulfur.dioxide
## Min. : 0.600 Min. :0.00900 Min. : 2.00
## 1st Qu.: 1.700 1st Qu.:0.03600 1st Qu.: 23.00
## Median : 5.200 Median :0.04300 Median : 34.00
## Mean : 6.391 Mean :0.04577 Mean : 35.31
## 3rd Qu.: 9.900 3rd Qu.:0.05000 3rd Qu.: 46.00
## Max. :65.800 Max. :0.34600 Max. :289.00
## total.sulfur.dioxide density pH sulphates
## Min. : 9.0 Min. :0.9871 Min. :2.720 Min. :0.2200
## 1st Qu.:108.0 1st Qu.:0.9917 1st Qu.:3.090 1st Qu.:0.4100
## Median :134.0 Median :0.9937 Median :3.180 Median :0.4700
## Mean :138.4 Mean :0.9940 Mean :3.188 Mean :0.4898
## 3rd Qu.:167.0 3rd Qu.:0.9961 3rd Qu.:3.280 3rd Qu.:0.5500
## Max. :440.0 Max. :1.0390 Max. :3.820 Max. :1.0800
## alcohol quality
## Min. : 8.00 Min. :3.000
## 1st Qu.: 9.50 1st Qu.:5.000
## Median :10.40 Median :6.000
## Mean :10.51 Mean :5.878
## 3rd Qu.:11.40 3rd Qu.:6.000
## Max. :14.20 Max. :9.000
我们的数据集由13个变量组成,具有近4898个观测值。
##
## 3 4 5 6 7 8 9
## 20 163 1457 2198 880 175 5
葡萄酒质量评为0(非常差)到10(非常优秀),质量属性数据呈现正态分布, 大部分酒的质量在5分到7分之间,这批被测试的酒大部分在中等质量水平。 哪些属性与酒的质量有关呢?它们的关系分别是什么样的呢?
再看一下其他属性的分布情况
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.800 6.300 6.800 6.855 7.300 14.200
##
## 3.8 3.9 4.2 4.4 4.5 4.6 4.7 4.8 4.9 5 5.1 5.2 5.3 5.4 5.5
## 1 1 2 3 1 1 5 9 7 24 23 28 27 28 31
## 5.6 5.7 5.8 5.9 6 6.1 6.15 6.2 6.3 6.4 6.45 6.5 6.6 6.7 6.8
## 71 88 121 103 184 155 2 192 188 280 1 225 290 236 308
## 6.9 7 7.1 7.15 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9 8 8.1 8.2
## 241 232 200 2 206 178 194 123 153 93 93 74 80 56 56
## 8.3 8.4 8.5 8.6 8.7 8.8 8.9 9 9.1 9.2 9.3 9.4 9.5 9.6 9.7
## 52 35 32 25 15 18 16 17 6 21 3 11 2 5 4
## 9.8 9.9 10 10.2 10.3 10.7 11.8 14.2
## 8 2 3 1 2 2 1 1
大多数白葡萄酒的固定酸度在6—8g/dm^3,最小值是3.8,最大值是14.2。 在9g后面有少量的高酸度值,超过9g的固定酸度白葡萄酒的质量是什么情况呢?
低于等于9g的固定酸度白葡萄酒的质量是什么情况呢?
从图上看,显然超过9g的固定酸度白葡萄酒的质量偏差。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0800 0.2100 0.2600 0.2782 0.3200 1.1000
##
## 0.08 0.085 0.09 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14
## 4 1 1 6 6 13 3 34 3 44 1 56
## 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.2 0.205
## 4 88 5 141 2 140 1 177 5 170 214 4
## 0.21 0.215 0.22 0.225 0.23 0.235 0.24 0.245 0.25 0.255 0.26 0.265
## 191 1 229 4 216 4 253 4 231 10 240 5
## 0.27 0.275 0.28 0.285 0.29 0.295 0.3 0.305 0.31 0.315 0.32 0.325
## 218 3 263 5 160 3 198 4 148 4 182 2
## 0.33 0.335 0.34 0.345 0.35 0.355 0.36 0.365 0.37 0.375 0.38 0.385
## 134 7 135 9 86 1 104 2 65 2 63 2
## 0.39 0.395 0.4 0.405 0.41 0.415 0.42 0.425 0.43 0.435 0.44 0.445
## 61 2 59 1 54 4 36 2 35 2 46 4
## 0.45 0.455 0.46 0.47 0.475 0.48 0.485 0.49 0.495 0.5 0.51 0.52
## 25 2 30 15 3 17 3 14 2 14 10 10
## 0.53 0.54 0.545 0.55 0.555 0.56 0.57 0.58 0.585 0.59 0.595 0.6
## 8 10 1 14 2 9 4 7 2 4 2 7
## 0.61 0.615 0.62 0.63 0.64 0.65 0.655 0.66 0.67 0.68 0.685 0.69
## 7 4 5 2 7 2 3 4 5 3 1 2
## 0.695 0.705 0.71 0.73 0.74 0.75 0.76 0.78 0.785 0.815 0.85 0.905
## 3 2 1 1 1 1 2 1 1 1 1 1
## 0.91 0.93 0.965 1.005 1.1
## 1 1 1 1 1
葡萄酒中醋酸的含量过高会导致令人不愉快的醋味。挥发性酸度分布偏向左边, 大多数白葡萄酒的挥发性酸度低于0.38g/dm3。 猜测大于0.38g/dm3含量的葡萄酒质量会比较差。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.2700 0.3200 0.3342 0.3900 1.6600
##
## 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 0.11 0.12 0.13 0.14
## 19 7 6 2 12 5 6 12 4 12 14 1 19 17 27
## 0.15 0.16 0.17 0.18 0.19 0.2 0.21 0.22 0.23 0.24 0.25 0.26 0.27 0.28 0.29
## 23 33 27 49 48 70 66 104 83 181 136 219 216 282 223
## 0.3 0.31 0.32 0.33 0.34 0.35 0.36 0.37 0.38 0.39 0.4 0.41 0.42 0.43 0.44
## 307 200 257 183 225 137 177 134 122 101 117 82 95 37 63
## 0.45 0.46 0.47 0.48 0.49 0.5 0.51 0.52 0.53 0.54 0.55 0.56 0.57 0.58 0.59
## 46 51 38 39 215 35 25 23 16 19 11 22 13 21 6
## 0.6 0.61 0.62 0.63 0.64 0.65 0.66 0.67 0.68 0.69 0.7 0.71 0.72 0.73 0.74
## 6 9 14 4 6 8 7 7 7 5 3 9 5 5 41
## 0.78 0.79 0.8 0.81 0.82 0.86 0.88 0.91 0.99 1 1.23 1.66
## 2 2 2 2 2 1 1 2 1 5 1 1
柠檬酸可以增加葡萄酒的“新鲜度”和风味,猜测柠檬酸和质量有正向的关系。 柠檬酸分布偏向左边,大多数白葡萄酒的柠檬酸低于0.5g/dm^3。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.600 1.700 5.200 6.391 9.900 65.800
##
## 0.6 0.7 0.8 0.9 0.95 1 1.05 1.1 1.15 1.2 1.25 1.3
## 2 7 25 39 4 93 1 146 3 187 3 147
## 1.35 1.4 1.45 1.5 1.55 1.6 1.65 1.7 1.75 1.8 1.85 1.9
## 2 184 4 142 2 165 2 99 1 99 3 59
## 1.95 2 2.05 2.1 2.2 2.25 2.3 2.35 2.4 2.5 2.6 2.65
## 2 79 1 51 56 2 42 1 41 40 33 1
## 2.7 2.8 2.85 2.9 3 3.1 3.15 3.2 3.3 3.4 3.5 3.6
## 38 36 1 25 17 17 1 28 23 13 31 22
## 3.7 3.75 3.8 3.85 3.9 3.95 4 4.1 4.2 4.25 4.3 4.35
## 12 2 21 3 17 3 19 17 31 2 19 1
## 4.4 4.45 4.5 4.55 4.6 4.7 4.75 4.8 4.85 4.9 5 5.1
## 14 3 33 2 40 29 5 38 1 35 43 28
## 5.15 5.2 5.25 5.3 5.35 5.4 5.45 5.5 5.55 5.6 5.7 5.8
## 2 29 4 17 2 23 2 13 1 16 30 23
## 5.85 5.9 5.95 6 6.1 6.2 6.3 6.35 6.4 6.5 6.55 6.6
## 2 19 1 23 21 31 39 1 34 26 1 30
## 6.65 6.7 6.75 6.8 6.85 6.9 6.95 7 7.05 7.1 7.2 7.25
## 3 25 1 28 6 20 1 31 2 36 29 2
## 7.3 7.35 7.4 7.45 7.5 7.6 7.7 7.75 7.8 7.85 7.9 7.95
## 19 2 40 1 30 29 34 2 41 1 32 1
## 8 8.1 8.15 8.2 8.25 8.3 8.4 8.45 8.5 8.55 8.6 8.65
## 32 34 1 36 2 31 13 1 24 1 27 1
## 8.7 8.75 8.8 8.9 8.95 9 9.05 9.1 9.15 9.2 9.25 9.3
## 18 2 22 23 1 18 1 17 2 22 2 11
## 9.4 9.5 9.55 9.6 9.65 9.7 9.8 9.85 9.9 10 10.05 10.1
## 10 9 1 18 4 22 16 3 18 18 3 14
## 10.2 10.3 10.4 10.5 10.55 10.6 10.65 10.7 10.8 10.9 11 11.1
## 23 16 25 16 1 22 1 26 17 11 19 18
## 11.2 11.25 11.3 11.4 11.45 11.5 11.6 11.7 11.75 11.8 11.9 11.95
## 18 2 12 14 1 11 15 8 4 35 16 3
## 12 12.05 12.1 12.15 12.2 12.3 12.4 12.5 12.55 12.6 12.7 12.75
## 16 1 21 4 15 13 19 16 2 16 16 1
## 12.8 12.85 12.9 13 13.1 13.15 13.2 13.3 13.4 13.5 13.55 13.6
## 25 4 25 19 23 1 13 16 7 10 3 12
## 13.65 13.7 13.8 13.9 14 14.05 14.1 14.15 14.2 14.3 14.35 14.4
## 4 21 8 18 16 1 4 1 20 17 3 17
## 14.45 14.5 14.55 14.6 14.7 14.75 14.8 14.9 14.95 15 15.1 15.15
## 3 17 3 13 14 2 12 14 2 13 7 1
## 15.2 15.25 15.3 15.4 15.5 15.55 15.6 15.7 15.75 15.8 15.9 16
## 6 1 9 17 11 6 14 9 1 6 2 10
## 16.05 16.1 16.2 16.3 16.4 16.45 16.5 16.55 16.6 16.65 16.7 16.75
## 6 2 7 7 5 1 3 1 2 5 5 2
## 16.8 16.85 16.9 16.95 17 17.05 17.1 17.2 17.3 17.35 17.4 17.45
## 4 4 3 3 1 1 5 9 14 1 2 2
## 17.5 17.55 17.6 17.7 17.75 17.8 17.85 17.9 17.95 18 18.05 18.1
## 8 3 2 1 4 13 5 2 3 2 3 6
## 18.15 18.2 18.3 18.35 18.4 18.5 18.6 18.75 18.8 18.9 18.95 19.1
## 8 3 2 4 1 1 1 4 3 1 3 1
## 19.25 19.3 19.35 19.4 19.45 19.5 19.6 19.8 19.9 19.95 20.15 20.2
## 3 4 1 2 3 2 1 4 1 3 1 2
## 20.3 20.4 20.7 20.8 22 22.6 23.5 26.05 31.6 65.8
## 1 1 2 2 2 1 1 2 2 1
残糖分布右边有长尾数据,对X轴进行对数转换,更好地了解残糖分布。 转换后的残糖呈双峰分布,左边的峰落差变化大于右边的峰,右边峰数据分布的更均匀。 残糖是发酵停止后剩余的糖量,很少能找到残糖含量低于1克/升的葡萄酒和 超过45克/升的葡萄酒,超过45克/升的葡萄酒被认为是甜的。 所以认为数据中低于1克/升和超过45克/升的葡萄酒数据为异常值,设置为平均值6.391
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00900 0.03600 0.04300 0.04577 0.05000 0.34600
##
## 0.009 0.012 0.013 0.014 0.015 0.016 0.017 0.018 0.019 0.02 0.021 0.022
## 1 1 1 4 4 5 5 10 9 16 19 19
## 0.023 0.024 0.025 0.026 0.027 0.028 0.029 0.03 0.031 0.032 0.033 0.034
## 20 34 30 54 58 85 81 108 107 109 119 168
## 0.035 0.036 0.037 0.038 0.039 0.04 0.041 0.042 0.043 0.044 0.045 0.046
## 130 200 160 167 157 182 147 184 141 201 170 181
## 0.047 0.048 0.049 0.05 0.051 0.052 0.053 0.054 0.055 0.056 0.057 0.058
## 171 174 133 170 115 104 130 99 61 88 68 53
## 0.059 0.06 0.061 0.062 0.063 0.064 0.065 0.066 0.067 0.068 0.069 0.07
## 36 46 19 25 23 15 8 18 18 7 18 6
## 0.071 0.072 0.073 0.074 0.075 0.076 0.077 0.078 0.079 0.08 0.081 0.082
## 5 2 5 8 2 9 1 2 4 4 2 2
## 0.083 0.084 0.085 0.086 0.087 0.088 0.089 0.09 0.091 0.092 0.093 0.094
## 5 5 3 4 3 2 1 2 1 3 3 5
## 0.095 0.096 0.097 0.098 0.099 0.102 0.104 0.105 0.108 0.11 0.112 0.114
## 2 6 1 3 1 1 1 1 2 3 1 1
## 0.115 0.117 0.118 0.119 0.12 0.121 0.122 0.123 0.126 0.127 0.13 0.132
## 1 3 1 3 1 2 1 4 3 2 1 1
## 0.133 0.135 0.136 0.137 0.138 0.142 0.144 0.145 0.146 0.147 0.148 0.149
## 1 1 1 2 2 3 1 1 1 2 1 1
## 0.15 0.152 0.154 0.156 0.157 0.158 0.16 0.167 0.168 0.169 0.17 0.171
## 1 2 1 1 4 1 2 2 3 2 2 1
## 0.172 0.173 0.174 0.175 0.176 0.179 0.18 0.184 0.185 0.186 0.194 0.197
## 2 2 2 2 2 1 1 2 2 1 1 2
## 0.2 0.201 0.204 0.208 0.209 0.211 0.212 0.217 0.239 0.24 0.244 0.255
## 1 2 1 2 1 1 1 1 1 1 1 1
## 0.271 0.29 0.301 0.346
## 1 1 1 1
氯化物分布偏左,大多数白葡萄酒的氯化物含量小于0.1g/dm^3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.00 23.00 34.00 35.31 46.00 289.00
##
## 2 3 4 5 6 7 8 9 10 11 11.5 12
## 1 10 11 25 32 25 35 29 55 45 1 51
## 13 14 15 15.5 16 17 18 19 19.5 20 21 22
## 55 68 79 1 58 89 80 84 1 101 93 102
## 23 23.5 24 25 26 27 28 28.5 29 30 30.5 31
## 110 1 118 111 129 99 112 1 160 99 1 132
## 32 33 34 35 35.5 36 37 38 38.5 39 39.5 40
## 109 112 128 129 2 127 111 102 1 89 1 103
## 40.5 41 41.5 42 42.5 43 43.5 44 44.5 45 46 47
## 1 104 2 86 1 63 1 75 4 101 64 91
## 48 48.5 49 50 50.5 51 51.5 52 52.5 53 54 55
## 66 7 82 64 2 54 1 72 4 68 61 58
## 56 57 58 59 59.5 60 60.5 61 61.5 62 63 64
## 42 44 37 39 2 38 2 47 1 29 30 23
## 64.5 65 66 67 68 69 70 70.5 71 72 73 73.5
## 1 14 17 22 24 17 11 1 5 6 8 4
## 74 75 76 77 77.5 78 79 79.5 80 81 82 82.5
## 5 7 5 5 1 4 2 4 1 7 2 1
## 83 85 86 87 88 89 93 95 96 97 98 101
## 4 2 2 4 1 1 1 1 3 1 3 2
## 105 108 110 112 118.5 122.5 124 128 131 138.5 146.5 289
## 2 3 1 1 1 1 1 1 1 1 1 1
游离二氧化硫可以防止微生物的生长和葡萄酒的氧化,可以保证葡萄酒不变质。 但含量过高有可能会影响酒的口感。 游离二氧化硫分布偏左,大多数白葡萄酒的游离二氧化硫含量小于60mg/dm^3
总二氧化硫呈正太分布,大多数总二氧化硫含量分布在100-200mg/dm^3。 总二氧化硫:游离和结合形式的SO 2的量; 在低浓度下,SO2在葡萄酒中几乎检测不到, 但在游离SO2浓度超过50ppm时,SO2在酒的鼻子和味道中变得明显。显然SO2浓度过高时 会影响葡萄酒的气味。
密度分布偏左,大多数白葡萄酒的密度小于1g/cm^3。
PH呈正太分布,大多数PH分布在3.0-3.3。
硫酸盐呈正太分布,大多数硫酸盐含量分布在0.4-0.6g/dm^3。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.00 9.50 10.40 10.51 11.40 14.20
##
## 8 8.4 8.5 8.6
## 2 3 9 23
## 8.7 8.8 8.9 9
## 78 107 95 185
## 9.1 9.2 9.3 9.4
## 144 199 134 229
## 9.5 9.53333333333333 9.55 9.6
## 228 3 2 128
## 9.63333333333333 9.7 9.73333333333333 9.75
## 1 105 2 1
## 9.8 9.9 10 10.0333333333333
## 136 109 162 1
## 10.1 10.1333333333333 10.15 10.2
## 114 2 3 130
## 10.3 10.4 10.4666666666667 10.5
## 85 153 2 160
## 10.5333333333333 10.55 10.5666666666667 10.6
## 1 2 1 114
## 10.65 10.7 10.8 10.9
## 1 96 135 88
## 10.9333333333333 10.9666666666667 10.98 11
## 2 3 1 158
## 11.05 11.0666666666667 11.1 11.2
## 2 1 83 112
## 11.2666666666667 11.3 11.3333333333333 11.35
## 1 101 3 1
## 11.3666666666667 11.4 11.4333333333333 11.45
## 1 121 1 4
## 11.4666666666667 11.5 11.55 11.6
## 1 88 1 46
## 11.6333333333333 11.65 11.7 11.7333333333333
## 2 1 58 1
## 11.75 11.8 11.85 11.9
## 2 60 1 53
## 11.94 11.95 12 12.05
## 2 1 102 1
## 12.0666666666667 12.1 12.15 12.2
## 1 51 2 86
## 12.25 12.3 12.3333333333333 12.4
## 1 62 1 68
## 12.5 12.6 12.7 12.75
## 83 63 56 3
## 12.8 12.8933333333333 12.9 13
## 54 2 39 36
## 13.05 13.1 13.1333333333333 13.2
## 1 18 1 14
## 13.3 13.4 13.5 13.55
## 7 20 12 1
## 13.6 13.7 13.8 13.9
## 9 7 2 3
## 14 14.05 14.2
## 5 1 1
酒精分布偏右,大多数白葡萄酒的酒精含量小于13%。 白葡萄酒的11个物理和化学属性所有观测值近乎都可以呈正太分布。 我猜测,酸度,柠檬酸,二氧化硫和残糖这些属性可能影响白葡萄酒的质量, 可能和葡萄酒的质量存在很强的关系。
数据集中有4898条记录,12个特特征(固定酸度,挥发性酸度,柠檬酸,残糖,氯化物, 游离二氧化硫,总二氧化硫,密度,pH,硫酸盐,酒精和质量)。
属性描述:
输入变量(基于物理化学测试):
输出变量(基于感官数据):
其他观察:
专家们根据个人感受对这些酒做了评分,0 ~ 10分非常糟糕到非常优秀。 是一些什么成分决定了专家给出的评分呢? 像酸度,残糖,氯化物这些成分决定了酒的味道,抗氧化剂和柠檬酸决定了酒的品质。 二氧化硫既能防止微生物生长保证酒的品质,但在浓度含量过高时又会有难闻的气味, 所以二氧化硫与酒的品质的关系可能负相关。
质量,酸度,残糖,氯化物,抗氧化剂,SO2和柠檬酸这些特征应该可以让我发现他们 之间的关系。
没有创建新变量。
在查看残糖的分布时,发现有部分数据残糖含量小于1克/升,还有部分大于45克/升。 残糖是发酵停止后剩余的糖量,很少能找到低于1克/升的葡萄酒和 超过45克/升的葡萄酒,超过45克/升的葡萄酒被认为是甜的。 所以认为数据中低于1克/升和超过45克/升的葡萄酒数据为异常值,设置为平均值6.391
葡萄酒的质量quality和酒精度alcohol有很强的正相关性,质量quality与密度dencity有 较强的负相关性,而酒精alcohol和密度dencity有更强的负相关。由于酒的密度取决于 酒精的百分比和糖含量,密度越大酒精含量越小,酒的质量越差。 酒精和氯化物,残糖,密度,游离二氧化硫和总二氧化硫也都有较强负相关性。 此外,相关性明显的还有PH和固定酸度,残糖和密度,残糖和总二氧化硫,密度和总二氧化硫, 游离二氧化硫和总二氧化硫。
从图表来看,alcohol,volatile.acidity,chlorides,density,total.sulfur.dioxide 和quality有较强的相关性,接下来我要仔细研究和quality有关的这些特征。
## # A tibble: 6 x 12
## quality mean_alcohol median_alcohol mean_volatile.a~ median_volatile~
## <fct> <dbl> <dbl> <dbl> <dbl>
## 1 3 10.3 10.4 0.333 0.26
## 2 4 10.2 10.1 0.381 0.32
## 3 5 9.81 9.5 0.302 0.28
## 4 6 10.6 10.5 0.261 0.25
## 5 7 11.4 11.4 0.263 0.25
## 6 8 11.6 12 0.277 0.26
## # ... with 7 more variables: mean_chlorides <dbl>, median_chlorides <dbl>,
## # mean_density <dbl>, median_density <dbl>,
## # mean_total.sulfur.dioxide <dbl>, median_total.sulfur.dioxide <dbl>,
## # n <int>
## wqw.noX$quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.00 9.55 10.45 10.35 11.00 12.60
## --------------------------------------------------------
## wqw.noX$quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.40 9.40 10.10 10.15 10.75 13.50
## --------------------------------------------------------
## wqw.noX$quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.000 9.200 9.500 9.809 10.300 13.600
## --------------------------------------------------------
## wqw.noX$quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.50 9.60 10.50 10.58 11.40 14.00
## --------------------------------------------------------
## wqw.noX$quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.60 10.60 11.40 11.37 12.30 14.20
## --------------------------------------------------------
## wqw.noX$quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.50 11.00 12.00 11.64 12.60 14.00
## --------------------------------------------------------
## wqw.noX$quality: 9
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 10.40 12.40 12.50 12.18 12.70 12.90
##
## Pearson's product-moment correlation
##
## data: quality and alcohol
## t = 33.858, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.4126015 0.4579941
## sample estimates:
## cor
## 0.4355747
alcohol和quality之间有较强的正相关性,在quality(3-5)时,alcohol的平均含量有所下降, 之后是跟随alcohol升高quality也升高。我怀疑quality(3-5)这个区间的酒, 除了alcohol还有其它成分影响了它的quality。质量较好的酒大部分分布在酒精含量较高的部分。 它们的相关系数是0.44.
## wqw.noX$quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1700 0.2375 0.2600 0.3332 0.4125 0.6400
## --------------------------------------------------------
## wqw.noX$quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1100 0.2700 0.3200 0.3812 0.4600 1.1000
## --------------------------------------------------------
## wqw.noX$quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.100 0.240 0.280 0.302 0.340 0.905
## --------------------------------------------------------
## wqw.noX$quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0800 0.2000 0.2500 0.2606 0.3000 0.9650
## --------------------------------------------------------
## wqw.noX$quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0800 0.1900 0.2500 0.2628 0.3200 0.7600
## --------------------------------------------------------
## wqw.noX$quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1200 0.2000 0.2600 0.2774 0.3300 0.6600
## --------------------------------------------------------
## wqw.noX$quality: 9
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.240 0.260 0.270 0.298 0.360 0.360
##
## Pearson's product-moment correlation
##
## data: quality and volatile.acidity
## t = -13.891, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.2215214 -0.1676307
## sample estimates:
## cor
## -0.194723
葡萄酒中醋酸的含量过高会导致令人不愉快的醋味,volatile.acidity和quality之间 有较弱的负相关性,随着volatile.acidity含量quality呈上升趋势。 它们的相关系数是-0.19.
## wqw.noX$quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.02200 0.03625 0.04100 0.05430 0.05400 0.24400
## --------------------------------------------------------
## wqw.noX$quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0130 0.0380 0.0460 0.0501 0.0540 0.2900
## --------------------------------------------------------
## wqw.noX$quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00900 0.04000 0.04700 0.05155 0.05300 0.34600
## --------------------------------------------------------
## wqw.noX$quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.01500 0.03600 0.04300 0.04522 0.04900 0.25500
## --------------------------------------------------------
## wqw.noX$quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.01200 0.03100 0.03700 0.03819 0.04400 0.13500
## --------------------------------------------------------
## wqw.noX$quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.01400 0.03000 0.03600 0.03831 0.04400 0.12100
## --------------------------------------------------------
## wqw.noX$quality: 9
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0180 0.0210 0.0310 0.0274 0.0320 0.0350
##
## Pearson's product-moment correlation
##
## data: quality and chlorides
## t = -15.024, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.2365501 -0.1830039
## sample estimates:
## cor
## -0.2099344
chlorides和quality之间有较弱的负相关性,随着chlorides含量减少quality呈上升趋势。 它们的相关系数是-0.21.
## wqw.noX$quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9911 0.9925 0.9944 0.9949 0.9969 1.0001
## --------------------------------------------------------
## wqw.noX$quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9892 0.9926 0.9941 0.9943 0.9958 1.0004
## --------------------------------------------------------
## wqw.noX$quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9872 0.9933 0.9953 0.9953 0.9972 1.0024
## --------------------------------------------------------
## wqw.noX$quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9876 0.9917 0.9937 0.9940 0.9959 1.0390
## --------------------------------------------------------
## wqw.noX$quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9871 0.9906 0.9918 0.9925 0.9937 1.0004
## --------------------------------------------------------
## wqw.noX$quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9871 0.9903 0.9916 0.9922 0.9935 1.0006
## --------------------------------------------------------
## wqw.noX$quality: 9
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9897 0.9898 0.9903 0.9915 0.9906 0.9970
##
## Pearson's product-moment correlation
##
## data: quality and density
## t = -22.581, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.3322718 -0.2815385
## sample estimates:
## cor
## -0.3071233
density和quality之间有明显的负相关性,随着density减少quality呈上升趋势。 密度减少,酒精含量增加,增加酒的质量。 它们的相关系数是-0.31.
## wqw.noX$quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 19.0 105.8 159.5 170.6 210.0 440.0
## --------------------------------------------------------
## wqw.noX$quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 10.0 85.0 117.0 125.3 171.5 272.0
## --------------------------------------------------------
## wqw.noX$quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 9.0 121.0 151.0 150.9 182.0 344.0
## --------------------------------------------------------
## wqw.noX$quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 18.0 107.2 132.0 137.0 164.0 294.0
## --------------------------------------------------------
## wqw.noX$quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 34.0 101.0 122.0 125.1 144.2 229.0
## --------------------------------------------------------
## wqw.noX$quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 59.0 102.5 122.0 126.2 150.0 212.5
## --------------------------------------------------------
## wqw.noX$quality: 9
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 85 113 119 116 124 139
##
## Pearson's product-moment correlation
##
## data: quality and total.sulfur.dioxide
## t = -12.418, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.2017563 -0.1474524
## sample estimates:
## cor
## -0.1747372
total.sulfur.dioxide和quality之间有明显的负相关性,随着total.sulfur.dioxide 含量减少quality呈上升趋势。 它们的相关系数是-0.17.
除了和质量相关强的成分,我也想看看其它相关性强的成分散点图分布
很明显,pH与固定酸度呈很强的负相关。因为pH的酸性几乎是由固定酸度来体现的。
残糖和密度分布呈正相关性。残糖越高,酒精含量就会越低,酒的密度越大。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 1.800 5.500 6.466 9.900 31.600
残糖和总二氧化硫分布呈正相关性。残糖越高,总二氧化硫越大。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9871 0.9917 0.9937 0.9940 0.9961 1.0390
密度和总二氧化硫分布呈正相关性。密度集中分布在0.99到1之间。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.00 23.00 34.00 35.31 46.00 289.00
游离二氧化硫和总二氧化硫分布呈正相关性。总二氧化硫包括游离二氧化硫和结合形式的二氧化硫, 所以游离二氧化硫越高,总二氧化硫越高。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00900 0.03600 0.04300 0.04577 0.05000 0.34600
氯化物含量大部分分布在0.009到0.1之间,酒精和氯化物分布呈负相关性, 氯化物含量越高,酒精度越低。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 1.800 5.500 6.466 9.900 31.600
残糖含量大部分分布在0.6到20之间,酒精和残糖分布呈负相关性, 残糖含量越高,酒精度越低
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9871 0.9917 0.9937 0.9940 0.9961 1.0390
密度大部分分布在0.9871到1之间,酒精和密度分布呈负相关性, 密度含量越高,酒精度越低
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.00 23.00 34.00 35.31 46.00 289.00
游离二氧化硫大部分分布在2到75之间,酒精和游离二氧化硫分布呈负相关性, 游离二氧化硫含量越高,酒精度越低
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 9.0 108.0 134.0 138.4 167.0 440.0
总二氧化硫大部分分布在9到250之间,酒精和总二氧化硫分布呈负相关性, 总二氧化硫含量越高,酒精度越低。
葡萄酒的质量quality和酒精度alcohol有很强的正相关性,质量quality与密度dencity有 较强的负相关性,而酒精alcohol和密度dencity有更强的负相关。
由于酒的密度取决于酒精的百分比和糖含量,密度越大残唐含量越高,酒精含量越小,酒的质量越差。
酒精和氯化物,残糖,密度,游离二氧化硫和总二氧化硫也有较强负相关性。
alcohol和quality之间有较强的正相关性,在quality(35)时,alcohol的平均含量有所下降, 之后是跟随alcohol升高quality也升高。我怀疑quality(35)这个区间的酒, 除了alcohol还有其它成分影响了它的quality。质量较好的酒大部分分布在酒精含量较高的部分。 它们的相关系数是0.44.
影响质量的成分还有alcohol,volatile.acidity,chlorides,density和total.sulfur.dioxide 它们和quality都有较强的相关性。
密度和酒精,还有残唐之间有最强的关系,密度与酒精呈现很强的负相关性,密度与残唐 呈现很强的正相关性。密度越大残唐含量越高,酒精含量越小。
与双变量分析中猜测一样,在密度增加变大时,酒精含量减少,酒的质量也降低。 酒的质量和酒精含量是很强的正相关性,质量较好的酒大部分的酒精含量高于10. 与酒精含量呈负相关的密度,挥发性酸,氯化物和总二氧化硫,与质量也呈负相关性, 随着这些成分的增加,酒的质量在下降。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9871 0.9917 0.9937 0.9940 0.9961 1.0390
再次呈现出酒的质量随着酒精含量的增加而提升,密度在0.9~0.994区间的酒呈现出 酒精含量更高,质量更好的分布趋势。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.00 9.50 10.40 10.51 11.40 14.20
相同的结论,酒的质量随着密度的增加而降低,低酒精含量的酒分布在高密度的区域, 这一区域酒的质量偏低,酒精含量更高的酒分布在低密度的区域,低密度区域的酒质量更好。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.000 5.000 6.000 5.878 6.000 9.000
##
## (1,5] (5,6] (6,10]
## 1640 2198 1060
## wqw$quality.bucket: (1,5]
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 7.947 9.179 9.551 9.800 10.325 13.426
## --------------------------------------------------------
## wqw$quality.bucket: (5,6]
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.470 9.558 10.411 10.509 11.291 13.870
## --------------------------------------------------------
## wqw$quality.bucket: (6,10]
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.50 10.61 11.40 11.33 12.28 14.03
酒精在每个密度单位上的含量在酒质量的低中高分组上,分布平均,整体呈上升趋势。
与双变量分析中猜测一样,在密度增加变大时,酒精含量减少,酒的质量也降低。 酒的质量和酒精含量是很强的正相关性,质量较好的酒大部分的酒精含量高于10. 与酒精含量呈负相关的密度,挥发性酸,氯化物和总二氧化硫,与质量也呈负相关性, 随着这些成分的增加,酒的质量在下降。
相同的结论,酒的质量随着密度的增加而降低,低酒精含量的酒分布在高密度的区域, 这一区域酒的质量偏低,酒精含量更高的酒分布在低密度的区域,低密度区域的酒质量更好。
葡萄酒质量评为0(非常差)到10(非常优秀),质量属性数据呈现正态分布, 大部分酒的质量在5分到7分之间,这批被测试的酒大部分在中等质量水平。
alcohol和quality之间有较强的正相关性,在quality(3~5)时,alcohol的平均含量有所下降, 之后是跟随alcohol升高quality也升高。质量较好的酒大部分分布在酒精含量较高的部分。 它们的相关系数是0.44.
再次呈现出酒的质量随着酒精含量的增加而提升,密度在0.9~0.994区间的酒呈现出 酒精含量更高,质量更好的分布趋势。
白葡萄酒数据包含4898条观察记录和12个属性特征,有11个属性特征属于客观测试所得( 包括物理和化学测量方法),有1个质量属性是基于传感数据所得(通过葡萄酒专家至少 进行3次评估的中位数),每位专家都对葡萄酒质量进行评分在0(非常糟糕)和10 (非常优秀)之间。
我对每个输入属性都进行了单变量绘图分析,大部分属性数据分布呈正太分布。 残糖分布右边有长尾数据,对X轴进行对数转换,转换后呈双峰分布。
双变量分析中,我对相关系数较强的属性都做了绘图分析。 葡萄酒的质量quality和酒精度alcohol有很强的正相关性,质量quality与密度dencity有 较强的负相关性,而酒精alcohol和密度dencity有更强的负相关。由于酒的密度取决于 酒精的百分比和糖含量,密度越大酒精含量越小,酒的质量越差。